能够分析和量化人体或行为特征的系统(称为生物识别系统)正在使用和应用变异性增长。由于其从手工制作的功能和传统的机器学习转变为深度学习和自动特征提取,因此生物识别系统的性能增加到了出色的价值。尽管如此,这种快速进步的成本仍然尚不清楚。由于其不透明度,深层神经网络很难理解和分析,因此,由错误动机动机动机的隐藏能力或决定是潜在的风险。研究人员已经开始将注意力集中在理解深度神经网络及其预测的解释上。在本文中,我们根据47篇论文的研究提供了可解释生物识别技术的当前状态,并全面讨论了该领域的发展方向。
translated by 谷歌翻译
SARS-COV-2向科学界提出了直接和间接的挑战。从大量国家的强制使用面部面具的强制使用最突出的间接挑战之一。面部识别方法在蒙版和未掩蔽的个体上努力执行具有类似准确性的身份验证。已经表明,这些方法的性能在面部掩模存在下显着下降,特别是如果参考图像是未被掩蔽的。我们提出了FocusFace,一种使用对比学习的多任务架构能够准确地执行蒙面的面部识别。该建议的架构被设计为从头开始训练或者在最先进的面部识别方法上工作,而不牺牲传统的面部识别任务中现有模型的能力。我们还探讨了设计对比学习模块的不同方法。结果以屏蔽掩蔽(M-M)和未掩蔽掩蔽(U-M)面验证性能提出。对于这两个设置,结果都与已发布的方法相提并论,但对于M-M而言,该方法能够优于与其比较的所有解决方案。我们进一步表明,当在现有方法顶部使用我们的方法时,培训计算成本在保持类似的表现时显着降低。在Github上提供了实施和培训的型号。
translated by 谷歌翻译
Evaluating new techniques on realistic datasets plays a crucial role in the development of ML research and its broader adoption by practitioners. In recent years, there has been a significant increase of publicly available unstructured data resources for computer vision and NLP tasks. However, tabular data -- which is prevalent in many high-stakes domains -- has been lagging behind. To bridge this gap, we present Bank Account Fraud (BAF), the first publicly available privacy-preserving, large-scale, realistic suite of tabular datasets. The suite was generated by applying state-of-the-art tabular data generation techniques on an anonymized,real-world bank account opening fraud detection dataset. This setting carries a set of challenges that are commonplace in real-world applications, including temporal dynamics and significant class imbalance. Additionally, to allow practitioners to stress test both performance and fairness of ML methods, each dataset variant of BAF contains specific types of data bias. With this resource, we aim to provide the research community with a more realistic, complete, and robust test bed to evaluate novel and existing methods.
translated by 谷歌翻译
传播模型已被证明对各种应用程序有效,例如图像,音频和图形生成。其他重要的应用是图像超分辨率和逆问题的解决方案。最近,一些作品使用了随机微分方程(SDE)将扩散模型推广到连续时间。在这项工作中,我们介绍SDE来生成超分辨率的面部图像。据我们所知,这是SDE首次用于此类应用程序。所提出的方法比基于扩散模型的现有超级分辨率方法提供了改进的峰值信噪比(PSNR),结构相似性指数(SSIM)和一致性。特别是,我们还评估了该方法在面部识别任务中的潜在应用。通用面部特征提取器用于比较超分辨率图像与地面真相,并获得了与其他方法相比,获得了卓越的结果。我们的代码可在https://github.com/marcelowds/sr-sde上公开获取
translated by 谷歌翻译
这项工作总结了2022年2022年国际生物识别联合会议(IJCB 2022)的IJCB被遮挡的面部识别竞赛(IJCB-OCFR-2022)。OCFR-2022从学术界吸引了总共3支参与的团队。最终,提交了六个有效的意见书,然后由组织者评估。在严重的面部阻塞面前,举行了竞争是为了应对面部识别的挑战。参与者可以自由使用任何培训数据,并且通过使用众所周知的数据集构成面部图像的部分来构建测试数据。提交的解决方案提出了创新,并以所考虑的基线表现出色。这项竞争的主要输出是具有挑战性,现实,多样化且公开可用的遮挡面部识别基准,并具有明确的评估协议。
translated by 谷歌翻译
该论文描述了铁路数据集,这是葡萄牙波尔图市的城市地铁公共交通服务的预测维护项目的结果。数据是在2020年至2022年之间收集的,旨在开发用于在线异常检测和故障预测的机器学习方法。通过捕获几个类似的传感器信号(压力,温度,电流消耗),数字信号(控制信号,离散信号)和GPS信息(纬度,经度和速度),我们提供了一个框架,可以轻松使用和开发用于该框架新的机器学习方法。我们认为该数据集包含一些有趣的特征,并且可以成为预测维护模型的良好基准。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
在本文中,我们提出了一种新的贝叶斯在线预测算法,用于局部可观察性(ATPO)下的Ad Hoc团队的问题设置,这使得与未知的队友执行未知任务的运行协作,而无需预先协调协议。与以前的作品不同,假设环境的完全可观察状态,ATPO使用代理商的观察来确定队友正在执行哪项任务的部分可观察性。我们的方法既不假设队友的行为也不是可见的,也不是环境奖励信号。我们在三个域中评估ATPO - 追踪域的两个修改版本,具有部分可观察性和过核域。我们的研究结果表明,ATPO在识别可能的任务中的大型文库中,在近乎最佳的时间内求助,以及在适应越来越大的问题尺寸方面可以进行高效的速度,可以有效和强大。
translated by 谷歌翻译
洗钱是一个全球性问题,涉及严重重罪(每年1.7-4万亿欧元的收益,如毒品处理,人口贩运或腐败。金融机构部署的反洗钱系统通常包括与监管框架一致的规则。人类调查人员审查警报和报告可疑案件。这种系统患有高​​假阳性率,破坏其有效性并导致高运营成本。我们提出了一种机器学习分类模型,它补充了基于规则的系统,并学会准确地预测警报的风险。我们的模型使用实体的设计功能和属性以基于图形的特征​​的形式表征实体间关系。我们利用时间窗口来构建动态图形,优化时间和空间效率。我们在真实的银行数据集上验证我们的模型,并展示分流模型如何将误报的数量减少80%,同时检测到90%的真实阳性。通过这种方式,我们的模型可以显着改善反洗钱操作。
translated by 谷歌翻译
Objective: Imbalances of the electrolyte concentration levels in the body can lead to catastrophic consequences, but accurate and accessible measurements could improve patient outcomes. While blood tests provide accurate measurements, they are invasive and the laboratory analysis can be slow or inaccessible. In contrast, an electrocardiogram (ECG) is a widely adopted tool which is quick and simple to acquire. However, the problem of estimating continuous electrolyte concentrations directly from ECGs is not well-studied. We therefore investigate if regression methods can be used for accurate ECG-based prediction of electrolyte concentrations. Methods: We explore the use of deep neural networks (DNNs) for this task. We analyze the regression performance across four electrolytes, utilizing a novel dataset containing over 290000 ECGs. For improved understanding, we also study the full spectrum from continuous predictions to binary classification of extreme concentration levels. To enhance clinical usefulness, we finally extend to a probabilistic regression approach and evaluate different uncertainty estimates. Results: We find that the performance varies significantly between different electrolytes, which is clinically justified in the interplay of electrolytes and their manifestation in the ECG. We also compare the regression accuracy with that of traditional machine learning models, demonstrating superior performance of DNNs. Conclusion: Discretization can lead to good classification performance, but does not help solve the original problem of predicting continuous concentration levels. While probabilistic regression demonstrates potential practical usefulness, the uncertainty estimates are not particularly well-calibrated. Significance: Our study is a first step towards accurate and reliable ECG-based prediction of electrolyte concentration levels.
translated by 谷歌翻译